Index de l'AideTable des matières

Fonctions d'apprentissage automatique

Vous trouverez ci-dessous un bref guide des diverses fonctions d'Apprentissage auto incluses dans la section Flux de données de Modèle.

Clustering

Le clustering consiste à grouper un ensemble d'objets de manière à ce que les objets d'un même groupe (nommé cluster) soient davantage similaires (dans un sens ou un autre) entre eux que ceux des autres groupes (clusters).

DBSCAN

  • Le DBSCAN (Density-Based Spatial Clustering of Applications with Noise) est un algorithme de clustering des données. Il regroupe les points ensemble en fonction de la distance.
  • Il est particulièrement précis lorsqu'utilisé avec un nombre de clusters inconnu. Il peut être utilisé pour la localisation en intérieur pour comprendre le nombre de pièces, d'endroits communs etc.
  • Il nécessite un nombre minimal de voisins et une distance maximal pour un voisin.
  • L'analyse par nuage de points ou graphique en bulles coloré par numéro de cluster peut indiquer un groupe similaire pouvant être filtré et analysé plus en profondeur par la suite. Le nombre de groupes lui-même peut suggérer une approche différente dans l'analyse des données. Les points de données sans cluster peuvent également être désignés comme des anomalies.

EMMD

  • EMMD (Expectation Maximization Mixed Data) est une méthode de clustering basée sur les probabilités. Elle gère les données numériques et catégorielles.
  • Elle est utile avec les données combinées (numériques et catégorielles) et les nombres de clusters inconnus. Vous pouvez, par exemple, regrouper la couleur du produit avec les ventes, l'état et les dépenses, ce qui peut montrer que le rouge est similaire au jaune dans 3 différents états où les ventes et les dépenses sont importantes.
  • Nécessite une limité supérieure au nombre de clusters.
  • L'analyse de ce genre de clustering implique l'utilisation de plusieurs graphiques et tranches. Une autre utilisation permet de trouver les anomalies dans les espaces dépendant de données combinées.

Clustering hiérarchique

  • Le clustering hiérarchique groupe les données suivant plusieurs échelles en créant une arborescence de clusters. Les clusters à un niveau de l'arborescence sont reliés en tant que clusters au niveau suivant. Ceci vous permet de décider du niveau ou de l'échelle de clustering le plus approprié pour votre application.
  • Elle gère les données numériques et catégorielles. L'algorithme gère également les données numériques et catégorielles.
  • Son utilisation avec des petits ensembles de données combinées le rapproche d'EMMD mais il ne fonctionne qu'avec les petits ensembles de données et fournit des résultats plus précis.
  • Nécessite un nombre de clusters.
  • L'analyse de ce genre de clustering implique l'utilisation de plusieurs graphiques et tranches.

K-moyennes

  • Le clustering en K-moyennes a pour objectif de partitionner les observations numériques en k clusters (choisis ou estimés) où chaque observation appartient au cluster à la moyenne la plus proche.
  • Utiliser avec des données numériques. Un usage des k-moyennes est le géo-clustering, pour trouver les lieux d'habitation et de travail à partir de la latitude et de la longitude.
  • Il requiert un nombre de clusters (optionnel). Si le nombre de clusters n'est pas spécifié, il est déterminé par la méthode du coude.
  • Analyse par nuage de points ou graphique en bulles ou en cartes, coloré par numéro de cluster, peut indiquer un groupe similaire pouvant être filtré et analysé plus en profondeur par la suite.

PAM

  • Partitionnement (clustering) regroupant les données en k clusters "autour de médoïdes" - une version plus robuste des K-moyennes.
  • Peut être utilisé dans les ensembles de données souffrant de bruit (nombreuses anomalies etc.), l'avantage par rapport aux K-moyennes étant que la localisation du cluster est moins sensible aux anomalies.
  • Nécessite un nombre de clusters.
  • Analyse par nuage de points ou graphique en bulles ou en cartes, coloré par numéro de cluster, peut indiquer un groupe similaire pouvant être filtré et analysé plus en profondeur par la suite.

Canopy

  • Le clustering Canopy est l'algorithme de clustering numérique le plus rapide. Il sert de pré-traitement effectué avant d'autres algorithmes de clustering ou pour accélérer les opérations de clustering sur les grands ensembles de données.
  • Sert lorsque le nombre de clusters est inconnu et l'ensemble de données volumineux, comme pour le groupement de diverses activités suivant les données d'accéléromètre.
  • L'analyse par nuage de points ou graphique en bulles coloré par numéro de cluster peut indiquer un groupe similaire pouvant être filtré et analysé plus en profondeur par la suite. Le nombre de groupes lui-même peut suggérer une approche différente dans l'analyse des données. Les points de données sans cluster peuvent être désignés comme des anomalies.

Classificateurs - Prédiction

Le problème de la classification consiste à identifier à quel ensemble de catégories (particularités) appartient une nouvelle observation (libellé), sur la base d'un ensemble de données d'entraînement contenant des observations (ou instances) dont l'appartenance à une catégorie est inconnue.

KNN

  • "K-NN" (K plus proches voisins) classifie les valeurs nominales en fonction de la distance numérique.
  • Utilise les données numériques comme vecteur de fonctionnalité et les données catégorielles comme libellés. Peut être utilisé pour prédire si une personne va acheter un objet comportant de la citrine en fonction du nombre de fois qu'elle a vu une publicité, son revenu annuel et son nombre d'achats précédents sur une boutique en ligne.
  • Nécessite un nombre de voisins minimum (K).
  • Permet de prédire de nouvelles données échantillon de manière à estimer si un chaland va acheter.

Naive Bayes

  • Naive Bayes est un algorithme de classification multiclasse basé sur l'indépendance entre chaque paire de caractéristiques.
  • Utilise les données catégorielles comme vecteur de fonctionnalité et comme libellés. Il peut par exemple servir à prédire si quelqu'un va jouer au tennis en fonction des prévisions météo (soleil/couvert/pluvieux), de la température (chaude/moyenne/froide), de l'humidité (élevée/basse) et du vent (présent/absent).
  • Nécessite un λ (paramètre de lissage) afin de gérer les données éparses ou les mots inconnus.
  • Prédit si votre père va aller jouer eu tennis ou rester à la maison.

Arbre de décision

  • Arborescence de décisions (en tant que modèle prédictif), chaque colonne représente une branche. Suivez l'arborescence pour chaque ligne (depuis la racine) pour effectuer une prévision. Lent mais précis.
  • Utilise des données combinées pour les branches (vecteur de fonctionnalité) et catégorielles pour les prédictions (libellés). Peut servir à prédire l'achat ou non en fonction de données combinées (âge, diplômes, taille, statut de propriétaire avec un ensemble de données limité.
  • Permet de prédire de nouvelles données échantillon de manière à estimer si un chaland va acheter.

Forêt aléatoire

  • Les forêts aléatoires sont des ensembles d'arbres de décision. Elles combinent un grand nombre de petits arbres décisionnels échantillonnés de manière aléatoire afin de réduire le risque de surapprentissage.
  • Utilise les données catégorielles comme vecteur de fonctionnalité et comme libellés. Une forêt aléatoire peut servir à prédire si quelqu'un aura la grippe en fonction de la combinaison ou non de divers facteurs (tabac, diabète, alcool, végétarisme, vie citadine etc.).
  • Prédit qui devrait se faire vacciner.

Réseau neuronal superficiel

  • Les réseaux neuronaux artificiels sont des systèmes informatiques inspirés des réseaux neuronaux biologiques que l'on trouve dans le cerveau des animaux. Le réseau neuronal superficiel ne comporte qu'une couche masquée.
  • Utilise les données catégorielles comme vecteur de fonctionnalité et comme libellés. Peut servir à la reconnaissance d'image, par exemple pour reconnaître si une photo de profil est masculine ou féminine.
  • Permet d'ajouter un libellé pour tous les utilisateurs et d'économiser une question dans un formulaire d'inscription.

Support Vector Machine (SVM)

  • Support Vector Machines est un algorithme de classification cartographiant les données de points dans l'espace de manière à ce que les écarts entre les points de catégories différentes soient aussi larges que possible.
  • Utilise les données numériques comme vecteur de fonctionnalité et les données catégorielles comme libellés. Peut être utilisé pour prédire si une personne va acheter un objet particulier en fonction du nombre de fois qu'elle a vu une publicité, son revenu annuel et son nombre d'achats précédents sur une boutique en ligne.

Régression

Arborescence de régression

  • Estimation de valeur numérique basée sur une arborescence.
  • Utilise des données combinées comme vecteur de fonctionnalité et les données numériques comme libellés. Peut être utilisé pour les données propres ou les estimations de valeurs numériques.
  • Nécessite d'avoir la largeur et la profondeur de l'arborescence.
  • Sert à l'estimation des ventes en fonction de nouvelles données.

Interpolation

Interpolation linéaire.

  • Méthode mathématique de modélisation des données en fonction d'un ensemble de droites linéaires reliant chacun deux points de données.
  • Permet de lisser les données peu précises contenant du bruit inhérent.
  • Façon préférable d'interpoler lorsque les données se comportent comme un ensemble de droites.
  • Sert à obtenir des valeurs lissées de montant des dépenses mensuelles.

Interpolation polynomiale

  • Méthode mathématique de modélisation des données à l'aide d'un polynôme reliant les points de données échantillons.
  • Permet de lisser les données peu précises contenant du bruit inhérent.
  • Façon préférable d'interpoler lorsque les données se comportent comme un ensemble de polynômes.
  • Sert à obtenir des valeurs lissées de montant des dépenses mensuelles.

Splines

  • Méthode mathématique de modélisation des données à l'aide d'un ensemble de polynômes (splines), dont chacun relie deux points de données.
  • Permet de lisser les données peu précises contenant du bruit inhérent.
  • Sert à obtenir des valeurs lissées de montant des dépenses mensuelles.

 

SUITE : Apprenez-en davantage sur les Nœuds d'apprentissage automatique.

Accueil | Table des matières | Index | Communauté d'utilisateurs
Pyramid Analytics © 2017-2019